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基于 图 神经 网 络 的 子 图 匹配 符号 算法 
杨 欣 , 徐 周波 ， 陈 浦 青 , 刘 华 东 


(桂林 电子 科技 大 学 计算 机 与 信息 安全 学 院 , 广 西 桂林 541004) 


摘 要 : 子 图 匹配 是 图 数据 分 析 中 的 基础 问题 ,具有 重要 的 研究 意义 。 针 对 子 图 匹配 求解 算法 存在 大 量 元 余 搜索 的 问题 ， 
提出 了 一 种 基于 图 神经 网 络 的 子 图 匹配 符号 算法 。 该 算法 利用 图 神经 网 络 技术 聚合 节点 的 邻 域 信息 ,得 到 包含 图 局 部 属 
性 和 结构 的 特征 向 量 ,以 该 向 量 作为 过 滤 条 件 得 到 查询 图 的 节点 候选 集 C。 此 外 ,优化 匹配 顺序 并 利用 符号 ADD 操作 在 
数据 图 中 构建 C 的 各 个 候选 区 域 ,减少 了 子 图 枚 举 验证 过 程 中 的 宛 余 搜 索 。 实 验 结 果 表 明 , 与 VF3 算法 相 比 ,该 算法 有 效 
地 提高 了 子 图 匹配 的 求解 效率 。 
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Subgraph matching symbol algorithm based on graph neural network 


YANG Xin, XU Zhoubo, CHEN Puqing，LIU Huadong 


> (School of Computer Science and Engineering, Guilin University of Electronic Technology, Guilin 541004, China) 


《 Abstract: Subgraph matching is a fundamental problem in graph data analysis and has important research significance. Ai- 
ng at the problem of a large number of redundant searches in the subgraph matching algorithm, a subgraph matching 
Ymbol algorithm based on graph neural network(SSMGNN) was proposed. The algorithm used the graph neural network 
这 hnology to aggregate the neighborhood information of nodes，and obtained the feature vector containing the local attrib- 
> fes and structure of the graph, and used the vector as the filter condition to obtain the node candidate set C of the query 
Eapt. In addition, optimizing the matching order and using symbolic ADD operations to construct each candidate region of 
in the data graph reduced redundant searches during subgraph enumeration verification. The experimental results show 


Nhat, compared with the VF3 algorithm, the algorithm effectively improve the solving efficiency of subgraph matching. 
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图 作为 一 种 数据 结构 ,可 以 有 效 刻 画 事物 之 间 的 
关系 ,现实 世界 中 的 许多 复杂 问题 都 可 以 用 图 进行 
象 表示 。 子 图 匹配 问题 作为 图 分 析 中 最 基本 的 问题 
之 一 ,其 目标 是 在 数据 图 g 中 查找 与 查询 图 g 同 构 
的 所 有 子 图 一 ,在 图 像 检索 .化 学 分 子 式 检索 .知识 图 
谱 查 询 和 社交 网 络 分 析 等 领域 有 着 广泛 应 用 。 由 
于 子 图 匹配 问题 属于 NP 难 问题 , 随 着 数据 规模 的 急 
剧 增 加 ,其 求解 的 复杂 度 呈 指数 增长 ,因此 广大 研究 
者 致力 于 扩大 子 图 匹配 问题 的 求解 规模 和 提升 求解 
效率 。 

在 过 去 几 十 年 ,大 量子 图 匹配 算法 被 提出 ,其 中 
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基于 回溯 搜索 的 算法 “中 更 是 被 广泛 研究 。 著 名 的 
Ullmann 算法 中 于 1979 年 提出 ,该 算法 基于 回溯 的 
树 搜索 在 数据 图 g 中 枚 举 出 与 查询 图 9 匹配 的 所 有 
子 图 。 由 于 Ullmann 算法 只 采用 了 简单 的 剪 梳 策 
略 ,无 法 高 效 地 减少 搜索 空间 。VF2 忆 算法 在 Ull- 
mann 算法 的 基础 上 ,将 节点 的 邻居 信息 作为 约束 条 
件 , 增 强 了 剪 枝 效果 ,有 效 地 减少 了 搜索 空间 。 
GraphQL 算法 所 提出 以 查询 图 的 深度 优先 搜索 生成 
树 过 波 数 据 图 中 的 节点 。Spath 算法 门 采用 对 查询 
图 进行 层次 遍历 并 以 每 层 节点 的 信息 作为 约束 条 件 ， 
引入 复杂 的 结构 与 语义 信息 过 滤 数 据 图 中 的 节点 。 
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这 些 算法 虽然 从 不 同 角度 增加 剪 枝 过 滤 效 果 , 从 而 改 
善 了 搜索 效率 , 却 很 难 在 合理 时 间 内 对 大 规模 数据 图 
进行 子 图 匹配 求解 。 为 了 扩大 求解 规模 , VF3 算 
法 中 在 VF2 的 基础 上 依据 查询 图 节点 的 匹配 点 在 数 
据 图 中 的 出 现 概 率 计算 匹配 顺序 ,并 引入 分 类 概念 ， 
将 节点 按照 度 与 标签 进行 分 类 ,进一步 减少 了 搜索 空 
间 。CFI-Match”* 算 法 提出 分 解 查询 图 延迟 第 卡尔 
加 ,以 有 效 减少 元 余 的 中 间 结 果 的 产生 ,采用 辅助 数 
据 结构 CPI 存储 候选 集中 的 部 分 连 边 。CECI9 算法 
则 将 数据 图 划分 为 多 个 嵌入 得 并 进行 并 行 处 理 ,采用 
剪 枝 技术 对 艇 入 篮 反 复 修剪 ,得 到 辅助 数据 结构 CE- 
CI。 虽 然 构造 辅助 数据 结构 提高 了 在 大 规模 数据 图 
中 的 搜索 效率 , 却 存在 消耗 大 量 的 内 存 空间 和 预 处 理 
时 间 的 问题 。 

区 为 了 平衡 子 图 匹配 求解 算法 的 时 间 复 杂 度 和 
室 间 复杂 度 , 从 增强 过 滤 效 果 、 优 化 匹配 顺序 和 减 
光疗 余 搜索 3 方面 出 发 ,提出 了 基于 图 神经 网 络 的 
子 图 匹配 符号 (symbol solving algorithm for sub- 
graph matching based of graph neural network, 简称 
SSMGNN) 算 法 。 不同 于 VFGCN 算 法 ， 
SSMGNN 算法 通过 引入 图 神经 网 络 (graph neural 
nEtWyorks, 简 称 GNN)D59 提 取 节 点 的 特征 向 量 , 以 
恋 阅 量 作为 过 滤 条 件 来 缩小 节点 候选 集 。 其 次 ， 
SSMGNN 算法 在 文献 [9] 的 基础 上 ,综合 考虑 了 节 
点 候选 集 的 大 小 、 节 点 度数 以 及 待 匹 配 节 点 的 邻居 
中 全 匹配 节点 数 等 信息 ,给 出 了 一 种 新 的 优化 匹配 
顺 膏 。 同 时 ,将 引入 的 代数 决策 图 (Calgebraic deci- 
siordiagram ,简称 ADD)57 作为 图 的 存储 结构 , 采 
用 符号 ADD 操作 对 子 图 匹配 求解 ,在 求解 过 程 中 ， 
提出 一 种 新 的 编码 使 得 并 行 处 理 候选 区 509 的 划分 ， 
从 而 减少 宛 余 搜 索 。 因 符号 ADD 是 隐 式 存储 ,使 
得 SSMGNN 算法 能 在 较 小 的 存储 空间 中 操作 较 大 
规模 的 图 。 


1 相关 概念 


定义 1 标签 图 G== 二 V,E,L,/ 放 ,其 中 :V 表 
示 图 G 的 节点 集合 ;E 表示 图 G 中 所 有 的 边 集 ;L 表 
示 节 点 标签 集合 ;7 表示 标签 映射 函数 :.V 一 L。 

定义 2 给 定数 据 图 g 二 二 Vy ,Es ,Ls ,ls 与 
查询 图 g 一 二 V,,E,,L,,l, 记 。 图 gq 与 图 g 存在 子 
图 同 构 关系 , 当 且 仪 当 存 在 一 个 单 射 函 数 f :VV，。 
满足 : 

1) Vu EV df uu) EV lu) = (fu)); 

2) Vuu) EEC D)) ELE,. 

定义 3 ”ADD 是 表示 基于 变量 序 x :x 过 x 一 


…<z， 的 一 族 伪 布 尔 函 数 f;:10,1)" 习 S 的 一 个 有 
向 无 环 图 , 它 满足 2 ; 

1)S 为 ADD 代数 结构 的 有 限 值 域 ,日 SEZ。 

2)ADD 中 的 节点 分 为 根 节 点 、 终 节点 和 内 部 节 
点 3 类 。 

3) 终 节点 集合 记 为 全。 对 任意 1 ET, 均 被 标识 
为 值 域 S 中 的 一 个 元 素 是 s(t1)。 每 个 非 终 节点 具 
有 四 元 组 属性 (f" ,nw ,1,h), 其 中 ; f" 表示 节点 
所 对 应 的 伪 布 尔 函 数 ;n, 表示 节点 wx 的 标记 变量 ;/ 
表示 节点 的 nw 二 0 时 ,节点 的 0- 分支 子 节点 ;内 
表示 节点 & 的 nw 二 1 时 ,节点 的 1- 分 支 子 节点 。 


(4) 图 中 的 每 个 节点 汉 对 应 唯一 一 个 函数 f"。 
(5) 图 中 任意 一 条 从 根 节点 到 终 节 点 的 路 径 中 ， 


所 有 变量 均 按 变 量 序 x 的 顺序 出 现 , 且 仅 出 现 
一 次 。 


2 ”基于 图 神经 网 络 的 子 图 匹配 符号 算法 


基于 图 神经 网 络 的 子 图 匹配 符号 算法 由 3 个 步 
又 组 成 , 即 生 成 候选 集 . 生 成 匹配 顺序 和 求解 子 图 同 
构 ,算法 的 基本 框架 如 图 1 所 示 。 首 先 ,从 提升 过 滤 
效率 的 角度 出 发 ,引入 图 神经 网 络 提取 图 节点 的 特征 
向 量 ,并 以 该 向 量 作 为 过 滤 条 件 为 查询 图 生成 候选 
集 。 其 次 ,根据 查询 图 节点 的 候选 集 、 度 以 及 查询 图 
的 层次 结构 等 属性 对 匹配 顺序 进行 优化 。 最 后 ,使 用 
ADD 表示 候选 集 与 图 ,并 结合 ADD 符号 操作 在 数 
据 图 中 以 查询 图 的 半径 为 范围 并 行 构 建 候 选区 ,并 在 
候选 区 中 采用 回 漳 算 法 进行 求解 。 


2.1 生成 候选 集 


目前 ,大 量 的 子 图 匹配 算法 可 分 为 过 渡 与 验证 2 
个 步骤 ,其 过 滤 阶 段 将 在 数据 图 中 探索 查询 图 每 个 节 
点 可 能 匹配 的 节点 ,这 些 匹 配 节点 的 集合 称 为 该 节点 
的 候选 集 。 在 验证 阶段 ,根据 候选 集 的 节点 在 数据 图 
中 进行 搜索 ,从 而 得 到 子 图 匹配 的 可 行 解 集 。 为 了 尽 
可 能 减少 候选 集中 错误 候选 节点 的 数量 , 现 有 的 子 图 
匹配 算法 大 多 基于 节点 的 标签 与 度 信息 对 候选 集 进 
行 过 滤 , 却 忽略 了 节点 的 局 部 邻 域 结构 与 属性 信息 。 
为 此 ,用 图 神经 网 络 对 图 的 节点 进行 邻 域 信息 聚合 ， 
得 到 节点 特征 向 量 , 使 得 节点 包含 更 多 的 局 部 信息 ， 
从 而 提升 过 滤 效 率 。 

首先 利用 图 注意 力 网 络 学 习 数 据 图 与 模式 图 
的 节点 特征 ,得 到 其 表示 向 量 。 其 次 ,在 文献 L214 提 
出 的 子 图 预测 函数 的 基础 上 ,设计 了 函数 p(x,， 
xX,) ,该 函数 通过 比较 节点 的 表示 向 量 中 每 个 位 置 的 
数值 大 小 来 判断 2 个 节点 的 邻 域 结构 是 否 可 能 存在 
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基于 符号 ADD 技 术 构 建 候选 区 


生成 候选 集 


= 
dd 
J 
hr 


包 合 关系 ,如 式 (1) 所 示 。 


o Xu Xiu/ 一 
一] 0, 其 他 。 


其 昌 :x。 为 节点 的 特征 向 量 ;x,[] 表 示 x, 的 第 ; 


全 一 ;4 为 特征 向 量 的 维度 。 通 过 式 (1) 对 数据 图 与 
查询 图 的 每 个 节点 的 特征 向 量 中 每 个 位 置 的 数值 进 
衙 印 较 。 若 AP (xyx, ) 为 1, 表 示 节点 v 的 节点 邻 域 
续 构 可 能 包含 节点 x 的 邻 域 结构 ,从 而 检查 节点 u 
续 的 标签 与 度 是 否 一 致 ,一 致 则 将 节点 加 入 节点 
以 的 候选 集 。 若 p (x,x,) 为 0, 则 说 明 2 个 节点 的 
邻 城 信息 不 存在 包含 关系 ,从 而 节点 v 不 能 成 为 节 


点 霹 的 候选 点 。 


格 


2. 多 确定 匹配 顺序 

加 在 子 图 匹配 求解 过 程 中 ,查询 图 节点 匹配 顺序 的 
选择 对 搜索 效率 有 着 严重 影响 。 如 图 2 所 示 ,查询 图 
g 中 的 每 个 节点 在 数据 图 g 中 的 候选 节点 表示 为 


us vi V2) Us to (Ua, (vs ugy Ug os 


站 


(ayforyus 和 oo)) Cus (v4 vss rs Veg }) 针对 
查询 图 " , 若 给 定 匹 配 顺 序 Pj 二 {uyw sus ,Us ,U3})， 
根据 回溯 搜索 算法 在 数据 图 g 中 进行 搜索 求解 ,其 
搜索 次 数 为 1 280 次 ,几乎 需要 遍历 整个 搜索 空间 。 
若 匹 配 顺 序 为 PP, 一 {ziyxsyzs, xy ,其 搜索 次 数 
为 175 次 。 由 此 可 见 ,合适 的 匹配 顺序 能 够 有 效 减少 
搜索 次 数 , 从 而 提高 搜索 效率 。 


(a) 查 询 图 gq 


(b) 数 据 图 g 


图 2 查询 图 g 与 数据 图 5 

因此 ,将 综合 考虑 查询 图 节点 的 候选 集 、 度 数 以 
及 查询 图 的 结构 3 个 方面 来 对 查询 图 匹配 顺序 进行 
优化 。 具 体 来 说 ,优先 匹配 候选 集 小 且 度 数 大 的 节 
点 ,可 降低 中 间 结 果 的 产生 。 由 于 在 子 图 搜索 的 过 程 
中 会 检查 待 匹配 节点 与 已 匹配 节点 的 结构 关系 与 查 
询 图 g 是 否 一 致 ,优先 考虑 与 已 匹配 节点 连 边 多 的 节 
点 ,也 可 提高 搜索 效率 。 因 此 ,综合 考虑 节点 候选 集 
的 大 小 、 节 点 度数 以 及 等 匹配 节点 的 邻居 中 已 匹配 数 
量 , 并 选择 两 者 之 和 的 最 大 的 节点 作为 下 一 个 匹配 节 
点 ,具体 如 式 (2) 所 示 。 


dad (u) 
| Clu) | 


HNG) NM|), 


order(u) 一 max( 


(2) 
其 中 : | .| 表示 取 集 合 中 元 素 的 个 数 ;C (wu) 表示 节 
点 2 的 候选 集 ;d (4) 表 示 节 点 的 度 ;NN (ww) 为 节点 
2 的 邻居 节点 集合 ; M 为 已 匹配 节点 的 集合 且 初 始 
值 为 空 集 ; | N G0) 站 M | 为 节点 zx 的 邻居 中 已 匹 
配 的 数量 。 第 一 个 匹配 节点 称 为 根 节 点 ,因为 选择 根 
节点 时 M 为 空 集 ,从 而 根据 节点 度数 与 节点 候选 点 
的 数量 的 比值 进行 选择 ,优先 选择 两 者 比值 大 的 节点 
作为 根 节点 ,并 将 根 节点 加 入 M。 下 一 个 节点 的 选 
择 , 将 会 在 节点 度数 与 节点 候选 点 的 数量 的 基础 上 考 
不 该 节点 与 M 中 节点 的 连 边 数量 ,者 度数 与 节点 候 
选 点 的 数量 的 比值 相同 , 则 优先 选择 与 M 连 边 的 节 
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点 作为 下 一 个 节点 。 以 此 类 推 ,确定 所 有 节点 的 匹配 
顺序 。 


2.3 候选 区 


文献 [9] 指 出 在 候选 区 中 进行 子 图 匹配 能 够 有 效 
减少 搜索 次 数 ,并 且 在 构造 候选 区 的 过 程 中 可 以 进 一 
步 对 候选 集 进 行 过 滤 。 为 了 得 到 数据 图 中 的 所 有 同 
构 子 图 ,在 构建 候选 区 时 , 根 节点 的 候选 集中 所 有 节 
点 分 别 作为 中 心 节点 ,在 数据 图 中 挖掘 大 小 与 查询 图 
半径 相同 的 子 图 作为 候选 区 。 然 而 ,这 一 做 法 造成 不 
同 的 候选 区 之 间 存在 许多 相同 的 节点 和 边 ,导致 需 要 
花费 大 量 的 空间 来 存储 。ADD 是 一 种 高 紧凑 、 易 操 
作 的 数据 结构 ,可 以 对 数据 进行 压缩 存储 ,是 克服 存 
储 容 量 限制 的 一 种 有 效 措施 。 因 此 ,引入 了 符号 
ABD, 将 其 作为 候选 区 的 存储 结构 ,并 且 可 以 并 行 地 
在 数据 图 中 进行 搜索 ,得 到 所 有 候选 区 ,有 效 解决 了 
存储 空间 问题 , 且 提 高 了 构建 候选 区 的 效率 。 


2 1 ADD 表示 
一 给 定 图 G, 其 节点 数量 | V | 一 ,首先 对 图 G 
的 区 点 与 边 进行 编码 。 节 点 编码 可 采用 长 度 为 m 一 
[Mn ] 的 二 进 制 串 入 一 (x1,z2，…,zw) 表 示 呈 3。 
迄 代 表 节 点 与 节点 间 的 二 元 关系 ,因此 边 记 为 (X， 
YE(ziy za ;Zn9y19y2， 呈 ;ym)， 其 中 :X 表示 
边 的 起 始 节 点 ;Y 表示 边 的 终 节 点 。 将 数据 图 g 的 
浪 集 EE。 转化 为 ADD 表示 , 记 为 E, (X,Y) ,查询 图 4 
边 红 的 ADD 表示 记 为 E, (X,Y)。 候 选集 的 ADD 
隶 寺 与 边 相 同 , 记 为 (X,Y)= (zi, x2 Tn sy1， 
yk》…,y,) ,其 中 :X 表示 查询 图 的 节点 ;Y 表示 数据 
图 的 节点 。 候 选集 的 ADD 表示 记 为 CCX ,Y)。 
为 了 压缩 存储 空间 并 实现 并 行 搜索 ,将 所 有 候选 

区 合并 存储 。 因 此 ,候选 区 的 ADD 表示 添加 变量 
Z, 以 区 分 不 同 的 候选 区 , 记 为 (Z ,X,Y) 二 (zi,xz;， 
Tn TI TT V1 V2 En 其 中 :Z 表示 
候选 区 区 分 标志 ;X 表示 候选 区 中 边 的 起 始 节 点 ;Y 
表示 候选 区 中 边 的 终 节 点 。 如 图 2(b) 所 示 ,Ri 与 Rs 
为 数据 图 中 的 2 个 候选 区 ,分别 由 根 节点 wi 的 候选 点 
vi 与 w 作为 起 始 节点 与 该 区 的 区 分 标志 ,数据 网 g 
的 节点 数 nn 二 97, 则 mm 二 7, 通 过 2Z 变量 编码 0000001 
与 0000010 来 区 分 Ri 与 R 候选 区 。 


2. 3.2 候选 区 构建 

候选 区 的 构建 首先 需要 基于 2. 1 节 计 算得 到 根 
节点 ,并 通过 根 节 点 得 到 查询 图 的 广度 优先 搜索 树 与 
查询 图 的 半径 >。 其 次 , 根 节 点 的 候选 点 分 别 作为 起 
台 节 点 ws。 并 作为 区 别 候选 区 的 标志 。 然 后 ,根据 v、 


在 数据 图 中 利用 广度 优先 搜索 构造 以 x 为 范围 的 候 
选区 ,在 此 过 程 中 ,每 层 候选 区 中 的 节点 都 会 与 查询 
图 中 该 层 节 点 的 候选 集 做 集合 操作 ,以 保留 候选 区 中 
属于 候选 集 的 节点 。 构 建 候选 区 的 伪 代 码 如 算法 1 
所 示 。 

算法 1 构建 候选 区 (ADDPartiton) 

输入 :数据 图 边 集 已 , (X,Y), 查 询 图 边 集 E， 
(X ,Y) ,候选 集 C(X ,Y) ,查询 图 半径 7, 根 节点 root 
(CX )。 
输出 :候选 区 R(Z,X,Y)。 
Cw (KX)—=GetRootCand(C(X,Y) ,root(X )); 
Ri (Z,X)=0,R(Z,X,Y)=0; 
Ri (Z,X)—=RegionMark(C. (X )); 
T,—=Ru,(Z,X),T, =—=root(X),L, (X)=root(X); 
for(i 二 0;i1 过 rr ;i 十 十 ) 

L,(Z,X)=GetLayerNode(L, (X),F,(X, 
Y),T, Rew ZX),CCX,Y),E, (X,Y)); 
Ca R(Z,X,Y)= UpdateRegion (L, (Z,X), 
Ri ZX),E, X,Y),R(Z,X,Y)); 

8. UpdateParameter(T,, T, ,Ly CX),L, (Z,X)); 
9. Return R(Z ,X,Y), 

算法 1 的 第 1 行 函数 GetRootCand 是 将 根 节点 
root(X) 与 查询 图 节点 的 候选 集 C(X,Y) 做 ADD 符 
号 操作 ,返回 根 节 点 的 候选 集 C,(X)。 第 3 行 函数 
RegionMark 是 通过 符号 操作 构造 以 Cw(X) 中 的 每 
个 节点 为 起 始点 与 区 分 候选 区 节点 的 候选 区 R 
(Z,X)。 第 5~8 行 是 一 个 以 查询 图 的 半径 为 范围 
的 for 循环 ,根据 广度 遍历 搜索 ,在 数据 图 中 一 层 一 
层 地 往 下 搜索 并 更 新 候选 区 。 其 中 第 6 行 函数 Get- 
LayerNode 是 为 了 得 到 候选 区 的 第 i 十 1 层 的 节点 ， 
首先 通过 查询 图 操作 得 到 第 i 十 1 层 的 节点 并 得 到 该 
层 节 点 的 候选 集 ,用 该 候选 集 过 滤 数 据 图 操作 得 到 第 
i 十 1 层 的 节点 ,从 而 得 到 候选 区 的 第 i 十 1 层 的 节点 
1L, (2Z,X)。 第 7 行 函数 UpdateRegion 为 更 新 增加 
候选 区 的 边 集 ,将 候选 区 R(Z,X,Y) 中 第 i 层 节 点 
与 L (ZX) 节 点 的 连 边 和 每 个 候选 区 中 工 , (2Z ,X) 
节点 间 的 连 边 加 入 候选 区 R(Z,X,Y)。 第 8 行 函数 
UpdateParameter 为 更 新 数据 图 在 不 同 候选 区 中 已 
经 遍历 过 的 节点 查询 图 已 经 遍历 的 节点 .已 经 分 区 
待 操作 的 数据 集中 的 节点 和 查询 图 中 待 操作 的 节点 ， 
更 新 后 进入 下 一 次 for 循环 。 第 9 行 返回 候选 区 R 
(Z,X,Y), 


OO oO 太一 


2.4 SSMGNN 算法 


结合 符号 ADD 技术 构建 候选 区 并 进行 求解 ,给 
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出 基于 图 神经 网 络 的 子 图 匹配 符号 算法 
CSSMGNN) 。 该 算法 主要 步骤 为 :第 1 步 产生 候选 
集 , 利 用 GNN 对 图 节点 邻 域 信 息 聚 合并 得 到 特征 向 
量 ,使 用 该 向 量 计算 得 到 查询 图 候选 点 。 第 2 步 优 化 
匹配 顺序 ,为 后 续 的 搜索 匹配 做 准备 。 第 3 步 构 建 候 
选区 ,在 数据 图 中 利用 符号 ADD 操作 构建 候选 集 的 
各 个 候选 区 域 。 第 4 步子 图 匹配 求解 ,结合 ADD 操 
作 与 回溯 搜索 进行 求解 。 算 法 SSMGNN 的 伪 代 码 
如 算法 2 所 示 。 

算法 2 SSMGNN 

输入 :数据 图 g 王 二 V。 ,下 ,, 工 ,，,/。 二 ,模式 图 
dg 二 二 V, ,下 , ,Lv 数据 图 中 每 个 顶点 的 节点 能 入 
X, ,数据 图 边 集 的 ADD 图 下 ,(X,Y)。 
这 输出 : 子 图 匹配 的 所 有 解 solutions。 
X ,一 NodeEmbedding(Co ) ; 
Cl(u)=ComputeCand(X, ,X,,g ,9); 
r ,Order,root<-Order(g,C(u)); 
4@Dorder(X,Y),E, (X,Y),C(X,Y), root(X)< 

— CreateADD(order, E,,C(u) ,root); 
5TER(Z,X,Y)=ADDPartition(E,. (X,Y),E,(X, 
Y), C(X,Y),r,root(X)); 
solution=0; 
Ci (KX)—=GetRootCand(C (X,Y),root(X)); 
efor vi (XECwo XK) 
RFR; (X,Y)=ChooseRegion (vw (X),R(Z, 
X,Y)); 
if CheakRegion(C(X,Y),R,(X,Y))==0 
break; 

else 
13., Match(order (X,Y)),R(X,Y),v (XX), 


solutions); 


14. Return solutions。 

算法 2 第 1 行 函 数 NodeEmbedding 用 于 对 查询 
图 的 节点 进行 邻居 信息 聚合 并 表示 为 特征 向 量 。 第 
2 行 函数 ComputeCand 使 用 式 (1) 计 算数 据 图 与 查 
询 图 的 节点 特征 ,得 到 查询 图 节点 在 数据 图 中 的 候选 
集 。 第 3 行 Order 函数 用 于 优化 模式 图 的 节点 匹配 
顺序 。 通 过 候选 集 和 查询 节点 的 度 等 信息 确定 查询 
图 的 根 节点 root。 以 root 为 起 始点 对 查询 图 进行 广 
度 遍历 搜索 ,并 对 每 层 的 节点 进行 排序 ,该 排序 按照 
已 匹配 节点 的 连 边 、 候 选集 大 小 与 度 等 条 件 得 到 最 终 
的 匹配 顺序 。 第 4 行 函数 CreateADD 是 将 排序 后 的 
节点 ,查询 图 的 边 集 、 候 选集 与 根 节 点 转化 为 ADD 
图 表示 。 第 5 行 函 数 ADDPartition 使 用 ADD 操作 
在 数据 集 构建 多 个 候选 区 R(Z,X,Y), 具 体 过 程 在 


算法 1 中 给 出 。 第 7 行 函数 GetRootCand 通过 ADD 
符号 操作 返回 root 的 候选 集 Ce(CX)。 第 8 一 14 行 
是 以 Ceu(CX) 的 节点 为 起 始 节点 的 每 个 候选 区 进行 
子 图 同 构 匹 配 。 其 中 第 9 行 函 数 ChooseRegion 将 选 
择 Co(CX) 中 的 一 个 节点 与 候选 区 R4Z,X,Y) 做 符 
号 操作 ,并 返回 其 中 的 一 个 候选 区 R; (X,Y); 第 10 一 
13 行 CheakRegion 函数 是 检查 R; (X,Y) 的 可 行 性 ， 
查看 每 个 查询 点 的 候选 集 在 R; (X,Y) 中 是 否 为 空 ， 
若 为 空 , 则 说 明 该 区 域 无 解 ,需要 重新 选择 一 个 候选 
区 ,否则 ,使 用 第 13 行 函数 Match 进行 求解 ,在 R，; 
(X,Y 了 ) 中 按照 order 的 匹配 顺序 对 变量 进行 赋值 , 采 
用 回溯 搜索 算法 寻找 可 行 解 并 将 其 加 入 解 集 ; 第 14 
行 返回 所 有 可 行 解 。 


3 实验 结果 及 分 析 


实验 环境 为 Core (TM) i5-1038NG7 CPU @ 
2.00 GHz,16 GiB 内 存 , 操 作 系 统 为 Windows 10 64 
位 ,编译 语言 为 Python 和 C/C 十 十 。 实验 使 用 的 2 
个 公开 数据 集 分 别 是 human 和 yeast。 其 中 human 
为 人 类 蛋白质 相互 作用 的 数据 图 ,由 86 282 条 边 、 
4 674 个 节点 和 44 个 不 同 的 标签 组 成 的 无 向 图 ; 
Yeast 数据 集 包 含 了 12 519 条 边 .3 112 个 节点 与 71 
个 不 同 的 标签 。 对 于 每 个 数据 集 , 构 造 4 种 不 同 的 查 
询 集 , 分 别 为 Q,、Qs、Qis、Qsz ,其 中 Q; 表示 包含 i 个 
节点 的 查询 图 的 查询 集 。 每 个 查询 集 包 含 50 个 具有 
相同 数量 节点 的 连通 图 。 由 于 VF3 算法 是 单机 上 非 
常 高 效 的 算法 ,其 性 能 优 于 VF2' 、L2GP LADF 
和 RIN 算法 ,因此 本 实验 将 与 VF3 算法 进行 比较 。 
实验 结果 中 的 平均 时 间 为 每 组 查询 图 得 到 子 图 同 构 
所 有 解 计算 的 总 时 间 与 查询 数量 的 商 , 平 均 时 间作 为 
评估 指标 更 能 体现 子 图 同 构 算 法 的 时 间 效 率 。 

实验 结果 如 图 3 所 示 , SSMGNN-yeast 与 VF3- 
yeast 分 别 表 示 SSMGNN 算法 与 VF3 算法 在 yeast 
数据 集 上 的 平均 运行 时 间 ; 同 理 , SSMGNN-human 
与 VF3-human 分 别 表示 2 种 算法 在 human 数据 集 
上 的 平均 运行 时 间 。 通 过 实验 对 比 可 知 : 

1) 当 查询 集 为 Q, 时 ,VF3 算法 在 2 个 数据 集 上 
的 平均 求解 时 间 较 少 , 优 于 本 算法 ,其 原因 是 在 算法 
执行 过 程 中 ,构建 ADD 需要 消耗 一 定 的 时 间 , 并 且 
SSMGNN 算法 利用 图 神经 网 络 提取 节点 的 邻 域 信 
息 作 为 过 滤 条 件 ,在 模式 图 较 小 的 时 候 , 其 邻 域 包含 
言 息 较 少 ,从 而 过 滤 效 果 并 不 明显 。 然 而 , 随 着 查询 
图 规模 的 增加 ,SSMGNN 算法 的 平均 时 间 性 能 明显 
优 于 VF3 算法, 且 时 间 增 幅 小 于 VF3 算法 ,这 表明 
本 算法 在 处 理 较 大 规模 的 查询 图 时 更 具有 优势 。 尽 
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3 ”human 与 yeast 数据 集 的 实验 结果 


管 当 查询 图 规模 增加 时 ,2 个 算法 的 时 间 复 杂 度 都 明 
显 增 加 ,但 是 本 算法 通过 优化 匹配 顺序 与 增加 节点 邻 
域 悄 息 \ 作 为 过 滤 条 件 , 有 效 减 小 了 搜索 空间 ,使 得 时 
间 皆 率 得 到 提升 。 

2)VF3 算法 在 human 数据 集 的 求解 时 间 比 在 
ysagt 数据 集 上 耗 时 更 长 。 其 原因 是 ,human 数据 集 
是 稠密 图 并 且 标 签 更 少 ， VF3 算法 在 human 数据 集 
需要 花费 更 多 的 时 间 进 行 搜索 求解 。 但 是 ， 
SSMGNN 算法 在 稠密 和 稀 玻 数据 集 上 的 求解 时 间 
相当 ， 由 此 表明 ,本 算法 不 仅 在 稀 朴 图 上 能 够 高 效 求 
解 . 并 且 在 稠密 图 上 的 求解 效率 远 超 于 VF3。 

查询 集 的 聚合 时 间 如 表 1 所 示 ,对 于 不 同 规模 下 
的 入 询 图 ， 邻 域 信息 聚合 的 平均 时 间 都 在 0.001 2 s 
左 玖 ,由 此 可 见 , 图 神经 网 络 在 4 一 32 个 节 ae 


下 需 能 够 花费 非常 少 的 时 间 对 节点 的 邻 域 信息 进 
特种 提取 。 
表 1 查询 集 的 邻 域 聚合 时 间 
查询 集 规模 数量 总 时 间 /s 平均 时 间 /s 
Qa 50 0.054 8 0.001 1 
Qs 50 0.055 9 0.001 1 
Qi 50 0.065 4 0.001 3 
Qs 50 0. 689 0 0.001 4 


在 实验 的 过 程 中 发 现 ,对 于 邻 域 信息 聚合 时 ,并 
不 是 聚合 越 多 的 邻 域 信息 其 过 滤 效 果 越 好 ,在 聚合 时 
所 选择 的 & 值 (节点 的 & 步 邻 居 ) 为 2 时 效果 最 好 。 
原因 是 human 与 yeast 数据 集中 的 查询 网 的 半径 范 


围 几 乎 不 超过 3, 当 值 越 大 时 ,会 使 得 所 有 节点 的 
邻 域 信息 趋 于 一 致 ,从 而 降低 其 过 滤 效 果 。 


5 结束 语 


提出 了 一 种 结合 图 神经 网 络 与 符号 代数 决策 图 


聚合 节点 邻居 信息 ,提高 了 过 滤 候 选 节点 的 效率 ,并 
且 基 于 候选 集 、 度 与 子 图 的 结构 等 特征 提出 了 一 种 优 
化 的 匹配 顺序 。 其 次 ,构建 了 关于 数据 集 、 查 询 图 与 
候选 集 的 ADD 图 ,使 用 符号 ADD 操作 实现 了 在 单 
机 上 并 行 划 分 候选 区 并 进行 回溯 求解 。 实 验 结 果 表 
明 ,该 算法 有 效 提高 了 子 图 同 构 问题 的 求解 效率 。 在 
未 来 的 工作 中 ,将 研究 如 何 使 用 符号 ADD 并 行 求解 
子 图 同 构 问 题 ,进一步 提高 在 单机 上 的 求解 效率 。 
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